Day 2｜使用 LiveKit 開始打造（2/5）

2025 iThome 鐵人賽

DAY 2

自我挑戰組

17th鐵人賽

213 瀏覽

目標先講清楚：
我要做一個「能看圖、會記憶」的智慧助理。
Input：語音／文字／圖片；Output：文字／語音。
並且要能即時互動（real-time）。

為什麼是「即時」？

傳統輪詢式 API（請求→回應）遇到語音、長連線、多使用者很快會卡。
我需要的是低延遲、多模態、可長連線的體驗：講一句話、丟一張圖，助理就能立刻理解、回覆並持續「在線」。

我先把常見方案放在同一張圖表裡，比較定位、上手程度、可擴展性、費用四個面向：

面向	OpenAI TTS／Realtime	Gemini Live API	LiveKit
定位 / 模型相容性	官方 Realtime API（WebRTC/WebSocket） + TTS；直連 OpenAI 即時/音訊模型（如 gpt-realtime、GPT 家族）。	Google 的即時多模態介面（WebRTC/WebSocket），鎖定 Gemini。	實時媒體基礎設施（SFU）+ Agents 框架；前後端提供 SDK；模型無關、可插換，官方支援「多家供應商／多款模型」。
上手程度	有 Realtime Quickstart，文件完整。	有官方文件參考；也可透過合作平台簡化媒體處理。	有 Agents（Node.js/Python）與文件快速入門；需理解 RTC／房間／軌道等概念。
費用 / 計費	依 token 計費（文字/音訊/影像有別；輸入/輸出分開計）。	有免費層；付費同樣以每百萬 token 計價。	框架開源，自建（OSS）不含模型費，但需自負基礎設施；LiveKit Cloud 依用量計價（代理會話分鐘、傳輸等）。

參考：OpenAI Realtime/TTS、Google Gemini Live API、LiveKit Docs 與 Pricing（文末附連結）

一句話：我希望媒體傳輸與多方即時連線交給專業的基礎設施，而模型層保持可插拔，之後要換 OpenAI/Gemini、或加上本地模型都不痛苦。

架構圖

用戶端（瀏覽器/行動裝置） ↔ LiveKit（WebRTC SFU）：前端提供多語言 SDK（JavaScript, Swift, Kotlin 等）
LiveKit Agent（Node/Python）：連接 LLM / TTS / STT / 記憶
模型與工具：OpenAI / Gemini / 其他供應商、向量資料庫、檔案工具、圖像理解等

好處是：即時性與智能清楚分層，哪層要換都很乾淨。